AI计算平台的基本概念
在AI计算平台进行AI算法的训练,我们需要一个这样的流程:
- 上传数据集(如果使用公开数据集,则跳过);
- 上传模型(如果使用公开模型,则跳过);
- 创建一个项目,选择训练数据集、模型、代码;
- 在项目中运行任务,设置运行参数,如环境镜像、计算卡类型、启动命令等;
- 查看运行结果,可查看作业日志,系统时间,作业输出结果等。
本小节我们先解释一下以上五个步骤中涉及的概念,具体的操作演练,会在第一个项目这个小节给大家演示。
1. 数据集
在AI计算平台中我们提供了很多常用的科研数据集,大家可以在AI算法项目中直接使用,我们称这部分数据集为公开数据集
。大家进入系统后,点击【资源大厅-公开数据集】即可浏览。
对于自己后面可能会在项目中使用的数据集,可以点击右上角的关注,这样在创建项目的时候,就可以快速找到这个数据集。
我们同样支持大家维护自己的私有数据集,大家进入系统后,点击【数据集】功能按钮即可进入数据集页面,在数据集页面支持大家创建自己的私有数据集。
2. 模型
除了数据集,AI计算平台还有很多公开的模型,大家可以在AI算法项目中直接使用,大家进入系统后,点击【资源大厅-公开模型】即可浏览。
同样,对于自己后面可能会在项目中使用的模型,可以点击右上角的关注,这样在创建项目的时候,就可以快速找到这个公开模型。
我们同样也支持大家维护自己的私有模型,大家进入系统后,点击【模型】功能按钮即可进入模型页面,在模型页面支持大家创建自己的私有模型。
3. 项目
在AI计算平台中,项目是用来管理相同训练任务的容器,用于将大家训练所需的数据集、模型和代码组织起来,可在提交训练任务时在容器内挂载项目所添加的数据集、模型、代码。
4. 任务
在项目中提交的某次训练作业,我们称之为一次任务
,一个项目可以包含多个任务。任务的运行,需要配置运行参数,如训练环境、NPU类型、NPU个数、启动命令等。
任务提交后会处于
等待
状态,分配到资源后变为运行中
,结束后变为成功
或失败
。
5. 运行结果
某次任务运行结束后,系统会收集运行过程中的日志、任务输出等数据,大家可以在【运行任务】页面查看。